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摘 要 : 针对 网 格 密度 聚 类 算法 存在 的 网 格 宽度 和 密度 阔 值 难以 确定 、 以 及 聚 类 精度 不 高 的 缺陷 ， 提 出 了 一 种 参数 自 
适应 的 网 格 密 度 聚 类 算法 。 定 义 了 数据 集 的 标准 化 离散 度 的 概念 ， 运 用 数据 集 的 自然 分 布 信息 自 适 应 的 计算 出 每 一 维 
较 优 的 分 割 宽 度 ， 对 不 同 的 密度 装 值 统计 其 唆 声 样本 对 象 的 数量 ， 绘 制 了 噪声 曲线 ， 从 噪声 曲线 中 获得 最 佳 的 密度 阅 
值 ， 而且 增 加 了 类 簇 边 缘 处 理 技 术 ， 进一步 提 高 了 聚 类 的 质量 。 仿真 实验 表明 ,改进 后 的 算法 可 获得 更 好 的 聚 类 效果 。 
关键 词 : 网 格 密度 ; 聚 类 ; 空间 划分 ; 噪声 曲线 
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Self-adaptive based on grid density clustering algorithm 


Zheng Cheng*", Cao Yang™? 
(a. Key Laboratory of Intelligent Computing & Signal Processing of Ministry of Education, b. College of Computer Science & 
Technology Anhui University, Hefei 230601, China) 


Abstract: The clustering algorithm of based on grid density is difficult to determine the grid width and density threshold. In 
addition, the accuracy of the results is dissatisfied. Considering the problem above, this paper proposed an improved clustering 
algorithm. The better segmentation width of each dimension is calculated by the natural distribution information of the data set. 
According to the different density thresholds, the number of the noise is calculated. The noise curve is drawn. The best density 
threshold is obtained from the noise curve. Simulation results show that the improved algorithm can get better clustering 
results. 
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需要 两 个 输入 参数 〈 每 一 维 划 分 的 单元 格 数目 和 识别 稠密 单元 


0 引言 格 的 密度 阔 值 ) 作为 算法 的 基础 ， 然 而 ， 参 数 的 设置 不 同 ， 将 
聚 类 分 析 是 数据 挖掘 领域 中 常用 的 技术 手段 ， 常 见 的 聚 类 ”会 对 聚 类 结果 产生 很 大 的 影响 。 此 外 ， 运 用 网 格 密度 聚 类 算法 
算法 有 基于 划分 的 聚 类 算法 -14， 基 于 层次 的 聚 类 算法 5-9， 基 。 ”进行 聚 类 操作 ， 得 到 的 类 簇 边缘 呈 直 线 型 ， 这 就 导致 了 该 算法 
于 密度 的 聚 类 算法 ” 帆 ， 基 于 网 格 的 聚 类 算法 2- 由， 基于 模型 ”的 聚 类 精度 不 是 太 高 。 为 此 ， 本 文 对 网 格 密度 聚 类 算法 进行 了 
的 聚 类 算法 0549 和 基于 网 格 密度 的 聚 类 算法 0749。 除 此 之 外 ， 改进 。 本 文 的 主要 创新 点 是 : a) 运用 数据 集 的 内 部 分 布 信息 来 

一 些 新 颖 的 聚 类 算法 被 国内 外 的 学 者 所 提出 ， 基 于 马尔 可 夫 随 ”自动 的 确定 每 一 维 的 划分 数目 :b) 构造 了 数据 集 的 噪声 曲线 ， 
直 ; c) 增加 了 对 稀 疏 单元 格 


机 游 走 的 谱 聚 类 算法 029， 基 于 确定 性 退火 的 聚 类 算法 司 ， 以 及 “运用 噪声 曲线 来 确定 合理 的 密度 阔 值 ; 
将 智能 优化 算法 与 聚 类 相 结 合 的 算法 0。 不 同类 型 的 聚 类 算法 的 处 理 技 术 ， 从 而 达到 了 提高 聚 类 精度 的 效果 。 

有 各 自 的 优 缺 点 ， 目 前 为 止 ， 没 有 一 种 聚 类 算法 能 对 所 有 的 数 

据 集 都 有 很 好 的 聚 类 效果 。 

基于 网 格 密度 的 聚 类 算法 是 一 种 常见 的 聚 类 算法 。 该 算法 基于 网 格 密度 的 聚 类 算法 (clustering algorithm of based on 
既 具 有 密度 聚 类 算法 发 现任 意 形状 类 簇 的 优势 ， 又 具有 网 格 聚 。” ”grid density，BGD) 是 以 网 格 为 最 小 的 处 理 单元 ， 从 而 大 大 提 
类 算法 高 效 的 特点 。 此 外 ， 该 算法 对 于 噪声 数据 不 敏感 ， 具 有 高 了 聚 类 的 速度 。 

很 好 的 去 噪 能 力 ; 并 且 ， 网 格 密度 聚 类 算法 具有 很 强 的 伸缩 能 “1.1 基本 概念 

力 ， 因 此 ， 该 算法 非常 适合 对 大 规模 数据 集 的 聚 类 操作 。 基 于 定义 1 数据 集 5 的 划分 。 将 数据 集 $ 所 分 布 空间 的 每 一 
网 格 密度 的 聚 类 算法 虽然 具有 诸多 的 优点 ， 但 是 ， 该 算法 同样 八 划 分 为 相等 的 间隔 段 ， 生 成 不 相交 的 矩形 或 者 超 和 矩形 单元 


1 ”网 格 密 度 聚 类 算法 的 介绍 及 其 缺陷 分 析 
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合 G, 集合 G 覆盖 整个 数据 集 5 的 数据 分 布 空 间 。 集合 G 中 的 
每 一 个 矩形 或 者 超 和 矩形 单元 grid 的 空间 位 置 表 示 为 
{cscz,c3.…,cd}, 其 中 c=[1sh) 对 应 于 第 i 维 的 一 个 左 闭 右 开 的 间 
隔 段 。 一 个 单元 还 可 以 表示 为 (cNum1, cNumz, ...， CNuma)， 
其 中 cNumi 是 区 间 [1sh) 对 应 的 间隔 序号 ， 每 一 维 的 间隔 序号 的 
编号 从 1 开始 。 
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图 1 数据 集 datasetl 的 划分 


图 1 就 是 二 维 数据 集 datasetl 的 一 种 划分 ， 图 1 中 二 维 数 
据 集 的 每 一 维 都 被 划分 为 7 个 间隔 段 。 
定义 2 数据 对 象 碟 的 映射 。 数 据 对 象 盛 的 映射 就 是 根据 


式 (1) 将 如 映射 到 对 应 的 矩形 或 者 超 和 矩形 单元 grid 中 。 
xX. —min, m(% —min,) 


7 max; 一 min, max, 一 min, (1) 


的 数据 对 象 , 组 成 了 数据 集 的 一 个 类 簇 。 BGD 算法 的 流程 如 下 : 


元 。 


a) 根 据 维度 分 割 参数 m 对 数据 身 
得 到 网 格 单元 外 


攻 9 的 数据 空间 进行 划分 ， 
状 合 G={8ridl，egrid2, grid3, ...,， gridw}。 


b) 通 过 式 (1) 将 数据 集 5 中 的 每 一 个 数据 对 象 xi 映射 到 
对 应 的 网 格 单元 中 。 


We 


C 


dd) 从 网 格 单元 外 


根据 密度 阔 值 参数 50， 标 记 稠 密 网 格 单元 和 稀 玻 网 格 和 


I 


合 G 中 选择 一 个 稠密 网 格 单元 ， 以 此 稠密 


网 格 单元 为 起 点 ， 寻 找 稠密 网 格 单元 的 最 大 连通 区 域 ， 将 寻 


找到 的 稠密 连通 单元 格 从 集合 G 中 删除 。 
合 G 中 是 否 还 存在 稠密 的 网 格 单元 ， 


e) 判 断 网 格 单元 外 


存在 ， 重 复 执行 Step4， 得 到 稠密 网 格 单元 的 最 大 连通 区 域 集 


合 Q={q1，g2，.… 


了 qk}o 


fj 将 的 得 到 的 每 一 个 稠密 单元 格 的 最 大 连通 集合 qi 中 的 数 


据 对 象 输出 ， 每 一 个 最 大 连通 集合 中 的 数据 即 为 一 个 类 簇 。 
1.3 BGD 算法 存在 的 缺陷 分 析 


网 格 密度 聚 类 算法 虽然 具有 诸多 的 优点 ， 但 是 ， 该 算法 的 


缺点 也 是 显而易见 的 。 首 先 ， 该 算法 需要 维度 分 割 参 数 m 和 密 


度 阔 
有 很 
可 能 
分 害 


5 诺 
苔 肥 


题 


了 


其 中 : 是 数据 对 象 x 的 第 j 维 属性 值 。m 是 数据 集 每 一 维 的 
划分 段 数目 〈 以 下 简称 : 维度 分 割 参数 ) 。minj，maxj 分 别 为 
数据 集 5 中 第 j 维 属性 值 的 最 小 值 和 最 大 值 。 

定义 3 单元 格 grid 的 密度 den (grid) 。 单 元 格 gridk 的 
密度 就 是 数据 集 被 划分 后 ， 映 射 到 该 矩形 或 者 超 矩 形 单元 格 
8rid 中 数据 对 象 的 个 数 。 

定义 4 稠密 单元 格 。 笛 密 的 单元 格 就 是 单元 格 的 密度 大 
于 等 于 某 一 给 定 的 密度 阔 值 : 


den( grid)>56, (2) 


其 中 : 50 是 密度 阔 值 ， 由 用 户 根 据 经 验 设 定 。 
定义 5 稀 下 单 元 格 。 稀 朴 的 单元 格 和 稠密 的 单元 格 相反 ， 
密度 小 于 给 定 的 密度 阔 值 : 


den( grid )<5, (3) 


其 中 的 6o 和 式 (2) 中 的 一 样 。 

定义 6 单元 格 grid; 和 grid; 是 连通 的 ,单元 格 grid; 和 grid; 
是 连通 的 ， 当 且 仅 当 grid; 和 grid; 有 一 个 公共 面 (高 维 情 况 是 
面 ) ， 或 者 gridi 和 grid; 都 与 第 三 个 单元 格 gridt 有 一 个 公共 


| 本 


1.2 BGD 算法 的 思想 流程 
网 格 密度 聚 类 算法 的 主要 思 
密 网 格 单元 格 的 最 大 连通 区 域 ， 


谢 


就 是 划分 数据 空间 ， 寻 找 笛 
导 到 的 每 一 个 最 大 连通 区 域 中 


= 


be 


的 取 


从 图 


值 参数 5o 作 为 它 的 


大 的 影响 。 例 如 ， 若 每 一 维 的 分 割 参 数 m 的 取 值 过 大 ， 
将 属于 不 同类 簇 的 数据 对 象 划 分 到 同一 个 网 格 单元 中 ; 
参数 m 的 取 值 过 小 ， 就 起 不 到 加 快 聚 类 速度 的 效果 。 对 于 
闷 值 bo 的 选取 ， 对 聚 类 结果 的 影响 更 大 ， 为 了 说 明 这 个 问 


我 们 用 图 1 中 的 数 ] 


下 


基础 ， 而 这 两 个 参数 对 于 聚 类 结果 往往 


很 
各 


四 划分 为 例 。 图 1 中 ， 如 果 密 度 阔 值 bo 


值 不 同 ， 则 聚 类 的 结果 将 会 有 很 大 的 不 同 ， 如 图 2 所 示 。 
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2 (a) 是 密度 阔 值 60=6 时 数据 身 


2 (a) 可 以 看 


LH 
LI 


芭 3 4 时 6 7 ” 
闪 
(a)50=6 
2 3 4 5 6 有 时 Eg 
站 
(b)80=8 


图 2 聚 类 结果 


居 datasetl 的 聚 类 结果 ， 
当 密 度 冰 值 60=6 时 ， 聚 类 结果 是 理 ? 


想 
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的 ， 可 以 把 数据 集 的 四 个 自然 簇 都 显示 出 来 ， 并 且 把 噪声 数据 
排除 在 外 。 但 是 ， 如 图 2 (b) 所 示 ， 当 密度 阔 值 60=8 时 ， 碳 
下 角 类 艇 的 密度 相对 较 小 ， 划 分 后 ， 被 识别 为 稀 疏 的 单元 格 ， 
最 后 被 认为 是 噪声 而 被 抛弃 ， 从 而 导致 聚 类 结果 非常 差 ， 只 识 
别 出 了 数据 集中 的 其 它 三 个 类 艇 。 男 外 ， 从 图 2 (a) (b) 中 
还 可 以 看 出 ， 类 簇 的 边缘 都 是 被 重 直 或 者 水 平 切 制 的 ， 聚 类 结 
果 失 去 了 自然 类 簇 边缘 的 平滑 度 ， 这 是 因为 类 簇 的 边缘 被 误 认 
是 噪声 数据 而 被 丢弃 ， 这 也 是 导致 网 格 密度 聚 类 算法 聚 类 精 
度 不 高 的 重要 原因 之 一 。 


2 ”参数 自 适应 的 网 格 密度 聚 类 算法 


针对 2.3 节 中 所 述 的 网 格 密度 聚 类 算法 存在 的 缺陷 ， 本 节 
提出 了 参数 自 适应 的 网 格 密度 聚 类 算法 (self-adaptive based on 
grid density clustering algorithm，SA-BGD) 。 以 下 分 别 介 绍 
SA-BGD 算法 确定 维度 分 割 参数 m 值 的 方案 、 密 度 阔 值 50 的 
选取 策略 以 及 类 艇 边缘 的 处 理 技术 。 

2.1 维度 分 割 参数 m 的 确定 

为 了 得 到 合理 的 分 割 参 数 m，SA-BGD 算法 根据 待 聚 类 数 
据 集 自身 的 特点 来 计算 维度 分 割 参数 m。 为 便于 后 面 的 叙述 ， 
进行 以 下 新 的 定义 。 

定义 7 
离散 度 ， 可 


A 


第 j 维 数据 的 离散 度 Dj.Dj 是 数据 集 第 j 维 数据 的 


式 (4) 来 计算 。 


Di = 一 一 


= 一 -一 一 一 (4) 
X _means j 


其 中 : 5; 和 XX_meansj; 分 别 是 第 j 维 数据 的 标准 差 和 均值 。 
定义 8 数据 集 的 标准 化 离散 度 D;. D; 是 数据 集 的 标准 化 
离散 度 ， 其 形式 化 定义 如 式 (5)〉 所 示 。 


1 
We 
TT > 7 


其 中 : 4 是 数据 集中 数据 对 象 的 维 数 。D; 的 值 越 小 ， 数 据 身 
离散 度 越 大 ; D; 的 值 越 大 ， 数 据 集 的 离散 度 越 小 。 
数据 集 的 维度 分 割 参数 m 的 值 可 由 式 (6) 来 计算 。 


m= D,*4/N 


其 中 : d 是 数据 集中 数据 对 象 的 维 数 ，N 是 数据 集中 样本 的 数 
量 。 运 用 式 (6) 计算 的 分 割 参数 m 是 合理 的 ， 因 为 它 充分 考 
虑 了 数据 集中 数据 的 分 布 情况 。 
2.2 ”密度 阅 值 co 的 选取 

为 了 得 到 合理 的 密度 阔 值 60， 首先 利用 式 〈6) 计算 维度 
分 割 参数 m 的 值 , 用 m 来 分 割 数据 空间 , 并 且 将 数据 对 象 映射 
到 对 应 的 网 格 单元 中 ， 统 计 出 每 个 网 格 单元 中 的 数据 对 象 的 个 
数 ， 保 存在 各 自 的 网 格 单元 中 。 接 下 来 ， 分 别 统计 出 当 密 度 阔 
值 5o=0,1.2,… ,10 时 ， 数 据 集中 噪声 数据 的 个 数 。 以 下 是 噪声 


D = 


MY 


(5) 


7 
Ey 
Ea 


(6) 


数据 对 象 的 定义 : 

定义 9 噪声 数据 对 象 坟 .噪声 数据 对 象 符合 以 下 两 个 条 
件 : 这 所 在 的 网 格 单元 为 稀疏 的 网 格 单元 ，x 所 在 的 网 格 单元 
不 与 稠密 的 网 格 单元 相 邻 接 。 


只 有 符合 以 上 两 个 条 件 的 数据 对 象 才 是 噪声 数据 。 在 不 同 


的 密度 阔 值 bo 下 ， 将 获得 不 同 数量 的 噪声 数据 。 以 密度 阔 值 bo 


为 横 坐 标 ， 噪 声 个 数 noise 为 乡 


坐标 作 二 维 坐标 系 ， 将 得 到 的 


这 些 数 据 画 在 坐标 系 


势 ， 所 得 的 


线 即 为 噪声 曲线 。 如 图 


PF， 再 用 平滑 的 曲线 来 拟 合 这 些 数 据 的 趋 


所 示 ， 为 数据 集 datasetl 


ULD 


在 图 1 的 划分 下 的 噪声 


线 图 。 


noise 


[一 时 巾 线 S 


图 3 (datasetl 的 噪声 


线 ) 


3 是 数据 集 datasetl 在 图 1 的 划分 下 的 噪声 曲线 图 。 从 


图 3 可 以 看 出 ， 


线 在 [0，7] 内 比较 平缓 ， 所 对 应 的 噪声 数据 


noise 也 相对 较 小 。 当 


50 的 取 值 从 7 增长 到 8 时， 曲线 发 生 了 


急剧 的 变化 。 经 分 析 ， 


线 急 剧变 化 的 原因 是 当 密 度 阔 值 60=8 


时 ， 有 一 个 密度 较 小 的 类 簇 被 误 认 为 是 噪声 数据 ， 因 此 导致 了 


噪声 数量 的 急剧 增长 。 


所 以 ， 对 于 datasetl 中 的 数据 对 象 ， 密 


度 阔 值 设 置 为 7 是 比较 合理 的 。 


2.3 ”类 簇 边 缘 的 处 理 
网 格 密 


弃 ， 这 也 是 聚 类 结果 


度 聚 类 算法 聚 类 精度 不 高 的 主要 原因 之 一 是 类 艇 边 
缘 的 部 分 数据 被 划分 到 稀 玻 的 单元 格 中 ， 当 做 噪声 数据 而 被 丢 


类 艇 边缘 失去 平滑 度 的 直接 原因 。 为 ] 


提高 聚 类 的 精度 ， 必 须 对 类 艇 的 边缘 数据 进行 提取 ， 而 不 是 简 


单 的 将 其 当做 噪声 数据 丢弃 。 


为 叙述 方便 ， 进 行 以 下 定义 : 
定义 10 网 格 单元 grid; 和 gridj 的 相似 性 Sim。grid; 和 grid; 
的 相似 性 Sim 是 指 grid 中 数据 对 象 间 的 平均 欧式 距离 和 grid; 


中 数据 对 象 间 的 平均 欧式 距离 的 比值 : 


Sim( grid,, grid,) = | 


dis_means (grid ) (7) 
dis _means ( grid, ) 


其 中 : dis_means(g8ridj) 是 指 网 格 单元 gridt 中 数据 对 象 间 的 平均 
欧 氏 距离 。 函 数 x() 的 定义 如 下 : 


x(*)= |y x>1 


表达 式 可 知 ，Sin(gridgricdh) 的 取 值 范围 


Xx<l 
(8) 


是 (0,1]。Sim 的 
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值 越 大 ， 两 个 网 格 单元 的 相似 度 越 大 。 

定义 11 网 格 单元 gridi 和 grid; 的 吸引 性 Attra。gridi 和 grid; 
的 吸引 性 Attra 是 指 gridi 中 所 有 数据 的 均值 与 grid; 中 所 有 数据 
的 均值 之 间 的 欧式 距离 的 倒数 ， 形 式 化 定义 如 式 〈9) 所 示 。 


1 
dis(means( grid,), means (grid, )) 
其 中 : means(gridj 是 网 格 gridt 中 所 有 数据 对 象 的 均值 , dis(xi,x) 
是 数据 对 象 和 性 之 间 的 欧式 距离 。 

对 于 和 稠密 网 格 单元 gridn 接壤 (有 一 个 公共 边 或 者 公共 
面 ， 高 维 情况 下 是 超 面 ) 的 稀疏 网 格 单元 格 gridan， 分 别 计算 
gridm 和 gridn 之 间 的 相似 性 和 吸引 性 这 两 个 指标 ， 当 这 两 个 指 
标 满足 式 (10) (11) 的 关系 时 ， 就 将 这 个 稀 朴 的 网 格 单元 中 
的 数据 对 象 合 并 到 稠密 网 格 单元 数据 所 在 的 类 簇 中 。 


Atira ( grid,, grid; ) = 


(9) 


Attra ( grid,,, grid, )> 


式 (11) 


Sim( grid,,, grid, )> 4 


1 


grid _ wide 


(10) 


(11) 


PP 的 grid_wide 是 gridn 和 gridn 相 异 给 


的 网 格 宽 


度 。 式 (10) 中 ，M 是 相似 性 阔 值 (一 个 常数 )， 不 同 


对 聚 类 的 精度 有 一 定 的 的 影响 。 为 了 选取 合适 的 yw 值 ， 本 文选 


取 了 UCI 中 三 个 真实 高 
如 表 ! 所 示 。 对 于 不 同 的 jw 值 (范围 
文 的 算法 对 三 种 数据 集 进 行 聚 类 操作 ， 划 


的 变化 如 图 


Pr a 
08 上 及 08 
/ \ 
0 上 及 075 上 | 下 
p AN g | 
0 六 & 3 07 f 
/ \ | 
s 1 \ 1 
S065 子 § os | 
书 忆 | 
06 让 如 ob 应 
je A 
E / 到 | / 
055 7 0 本 过 
05| 本 0 引言 ee 
0 是 1 02 三 到 05 06 0 08 0 1 0 十 7 02 
[a ww 
Glass Iris 


L i i 1 
03 04 05 06 07 08 09 1 


表 1 UCI 高 维 数据 集 信息 


数据 集 名 称 数据 集 大 小 属性 类 型 属性 个 数 
Glass 214 数值 型 10 
Iris 150 数值 型 4 
Wine 178 数值 型 13 
从 图 4 中 曲线 的 变化 可 知 ， 随 着 相似 性 阔 值 wo 值 的 变化 ， 


F-measure 值 刚 开 始 呈 递增 趋势 ， 这 说 明 随 着 wo 值 的 增加 ， 聚 
类 的 结果 逐渐 的 改善 。 当 wo 值 增加 的 一 定 程度 时 ，F-measure 
的 值 开 始 下 降 ， 说 明 pw 值 增 大 到 一 定 程度 ， 聚 类 的 结果 会 逐渐 
变 差 。 从 线 中 可 以 看 出 ，yw 的 值 在 区 间 [0.60,0.80] 时 
F-measure 的 值 较 大 , 因此 wo 的 值 取 0.60 到 0.80 中 的 某 个 值 较 
为 合适 。 因 此 本 文 取 ywo=0.70。 

至 此 ，SA-BGD 算法 已 经 对 网 格 密度 聚 类 算法 中 存在 的 三 
个 缺陷 进行 了 修改 。 本 文 接 下 来 的 安排 如 下 : 第 三 节 将 对 改进 
后 的 算法 i 真实 验 ; 第 四 节 对 全 文 进行 总 结 。 


进行 仿 
仿真 实验 及 结果 分 析 


个 


3 


SA-BGD 算法 首先 利 | 
参数 m 的 值 ， 然 后 利用 噪 j 
还 增加 了 对 类 簇 边缘 的 处 理 
类 算法 存在 的 三 个 缺陷 。 

3.1 SA-BGD 算法 的 执行 流程 

SA-BGD 算法 的 执行 流程 如 下 : 


数据 集 的 分 布 情况 计算 出 维度 分 割 
线 获得 合理 的 密度 阔 值 bo， 最 后 
技术 ， 从 而 改进 了 基于 网 格 密度 聚 


;数据 集 进行 


图 4 (不 同 n0 值 所 对 应 的 F-measure 值 ) 


a) 和 输入 待 聚 类 数据 集 5。 


b) 根 据 输 入 的 数据 集 9 和 公式 (6) 计 算出 维 


度 分 


7 实验 ,数据 集 的 详细 
是 [0.1,1]〉， 分 别 运 
对 应 的 F-measure 


的 jwo 值 将 


言 息 


本 
值 


4 所 示 。 其 中 ，F-measure 值 越 大 ， 说 明 聚 类 效果 越 
好 ， 反 之 越 差 。 


割 参 数 m。 


c) 根 据 维 


式 (1) 将 集合 


度 分 割 参数 m， 分 割 数 据 空间 的 每 一 维 ， 


根据 


5 中 的 数据 对 象 映射 到 相 


dg 根据 不 同 的 密度 阔 值 50 检 测 数据 集中 噪声 数 扩 


绘制 噪 7 


e 根 据 最 佳 密度 阔 
人) 从 网 格 单元 集合 


从 


[2 
果 忆 | 


元 ， 寻 找 与 该 网 格 单元 相连 的 笛 


密 网 格 单元 的 最 大 连通 区 域 ， 并 将 这 些 网 格 单元 标 


记 为 visited ( 


已 访问 ) 。 


应 的 网 格 单元 中 。 


的 数量 ， 


线 中 获得 最 佳 的 密度 阔 值 60_best。 
值 5o_best 识别 稀 玻 和 稠密 网 格 单元 。 
G 中 选择 一 个 未 被 标记 的 稠密 的 网 格 单 


名 重复 有， 直到 集合 G 中 不 存在 未 被 标记 的 稠密 网 格 单元 


为 止 。 


h) 对 集合 G 中 稀疏 的 网 格 单元 进行 边缘 检测 ， 
(11) 的 稀 玻 网 格 单元 加 入 到 与 它 接壤 的 笛 
所 在 的 最 大 连通 区 域 中 。 


(10) 


中 所 有 的 数据 对 象 
3.2 仿真 实验 及 结果 分 析 
3.2.1 二 维 数据 集 的 实验 


本 节 对 SA-BGD 算法 和 BGD 《网 格 密 
实验 比较 ， 为 了 便于 观察 实验 效果 ， 实 验 数 据 采 用 J 
密度 聚 类 算法 中 最 常用 的 二 维 数据 集 。 数 据 集 的 自 


将 符合 式 


密 网 格 单元 


iD 每 一 个 最 大 连通 区 域 就 是 一 个 类 和 能， 输出 这 些 连通 区 域 


度 聚 类 算法 ) 进行 


基于 网 格 


然 类 簇 分 布 
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情况 如 图 5 所 示 ，, 数据 集 4k2、Aggregation、Compound 的 真实 在 三 种 数据 集 上 ， 分 别 用 SA-BGD 算法 和 BGD 算法 进行 
类 艇 数目 分 别 为 4、7、5。 并 且 三 种 数据 集 都 有 一 定 的 噪声 数 。” 聚 类 操作 ， 三 种 数据 集 的 噪声 曲线 和 聚 类 结果 如 图 6~8 所 示 。 
据 。 


4k2 Aggregation Compound 
图 5 (三 种 数据 集 的 自然 类 簇 分 布 ) 


80 一 一 - + -一 一 加 - - - + + 9 - r + 
一 一 4 忆 的 喉 声 曲线 


a 
, 
DSO+H*# 
凑 炎 闪 
部 亲 名 
站 治 小 
思 
莉 
5 
a 
+ 
怕 器 料 煌 
独 镍 重负 
A 
晤 
， 


noise 


nt 葫 
密 | 6 击 | 
最 佳 的 密度 说 值 “ 于 全 + 


品 外 | 
| 对 有 上 
| 3 坎 和 + 口 口 ar 营 . ] 
ET i 
了 ) 维 X 维 
a 4k2 噪声 曲线 b SA-BGD 算法 的 聚 类 结果 cBGD 算法 的 聚 类 结果 
(m=14,50=8) (m=14,80=8) 
图 6 (数据 集 4k2 的 实验 结果 ) 
ao0 T T T T T 30 T T r 
一 一 egaen 的 避 声 曲线 S @ ”类 征 1 2 类 笑 1 
700 上 = 六 类 答 2 了 ”类 艇 2 
25 丰 ”类 第 3 # ”类 毓 3 
500 类 笨 4 x ”类 答 4 
十 区 3 9 
| 上 本 类 条 6 6 
en * ”类 短 7 #* ”类 条 7 
400 D 县 
8 名 15| | 
” 300 
200 10 | 
100 ;| 
5 ;| 
0 
EE i %0 rm 如 和 本 
可 
a Aggregation 噪声 曲线 b SA-BGD 算法 的 聚 类 结果 cBGD 算法 的 聚 类 结果 
(m=19,80=4) (m=19,80=4) 
图 7 (数据 集 Aggregation 的 实验 结果 ) 
a0 一 一 一 -一 一 24 + 一 一 一 一 24 一 | 
o 六 ”类 第 1 签 1 
7ol Ceo Bh 人 站 口 | ，* 类 着 2 zl 类 二 2 
de ， 类 定 3 ， 类 艇 3 
a + ”类 第 4 | 
证 交 + 业 短 5|| | | 
18 和 是 人 | 划 晓 声 18 
FF 16 安安 0 oo 16F 
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a 中 演 且 芒 | "| 慑 吉 | 
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-10 = = 4 YE EE sa = = 
EE 5 10 4 2 235 加 着 各 年 多 全 5 10 5 为 大 35 各 是 印 于 
Ey Xx 稚 X 准 
a Compound 噪声 曲线 b SA-BGD 算法 的 聚 类 结果 c BGD 算法 的 聚 类 结果 
(m=14,50=3) (m=14,50=6) 


图 8 数据 集 Compound 的 实验 结果 ) 


INaA IVE 
郑 诚 ， 等 : 参数 自 适 应 的 网 格 密度 聚 类 算法 


录用 稿 

从 图 6 (a) 中 4k2 的 噪声 曲线 可 以 看 出 ， 数 据 集 4k2 的 最 Iris 110.34 0.219 0.543 
佳 密度 阔 值 是 8, 运用 由 式 (6) 计算 而 来 的 维度 分 割 参数 m=14 Wine 16923.54 0.456 0.603 
和 最 佳 密度 闵 值 60=8 进行 聚 类 操作 ，SA-BGD 算法 和 BGD 算 Glass 223.15 0.782 0.732 
法 的 聚 类 结果 如 图 6 (b) (c) 所 示 ，BGD 算法 的 类 簇 边 缘 时 OPTICS Iris 101.74 0.542 0.801 
直线 型 ， 丢 失 了 类 簇 边 缘 的 部 分 数据 对 象 ，SA-BGD 算法 的 聚 Wine 16910.45 0.783 0.792 
类 结果 要 优 于 BGD 算法 。 从 图 7 (a) 中 的 噪声 曲线 中 可 以 看 Glass 230.19 0.123 0.623 
出 ， 数 据 集 Aggregation 的 最 佳 密 度 阔 值 是 4， 运 用 由 式 (6) BGD Iris 112.57 0.113 0.501 
计算 出 来 的 分 割 参 数 m=19 和 密度 阔 值 60=4 进行 聚 类 操作 的 结 Wine 16949.41 0.102 0.598 
果 如 图 7 (b) (c) 所 示 。 图 7 (b) 是 SA-BGD 算法 的 聚 类 结 Glass 222.47 0.891 0.843 
果 ， 图 7 (c) 是 BGD 算法 的 聚 类 结果 ， 与 图 7(c) 中 的 聚 类 SA-BGD Iris 100.93 0.673 0.876 
结果 相 比 较 ， 图 7(b) 的 类 簇 边缘 平滑 了 不 少 ， 这 就 有 效 的 提 Wine 16914.03 0.704 0.757 
高 了 聚 类 的 质量 。 图 8 (a) 中 ， 从 数据 集 Compound 的 噪声 4 结束语 
线 可 以 看 出 ， 数 据 集 Compound 的 最 佳 密度 冰 值 60=3， 式 (6) Se 
计算 的 维度 分 割 参数 m=14， 运 用 这 两 个 数值 作为 输入 参数 ， 本 文 针对 网 格 密度 聚 类 算法 存在 的 缺陷 ， 提 出 了 参数 自 适 
SA-BGD 算法 的 聚 类 结果 如 图 8b 所 示 ， 从 结果 来 看 ，SA-BGD 应 的 网 格 密度 聚 类 算法 。 运 用 数据 集 的 分 布 信息 ， 自 适应 的 计 
聚 类 算法 可 以 很 好 的 显示 出 密度 比较 稀 玻 的 类 复 。 图 8 (c) 是 算 维度 分 割 参数 m 的 值 ,并且 运 用 噪声 曲线 来 获取 网 格 单元 的 
用 BGD 算法 在 数据 集 Compound 上 进行 的 聚 类 操作 ， 其 中 的 最 佳 密度 阔 值 50_best， 还 对 聚 类 结果 进行 了 边缘 处 理 技术 ， 提 
输入 参数 为 m=14，50o=6， 聚 类 结果 是 很 差 的 ， 首 先 它 漏 掉 了 两 高 了 聚 类 结果 的 精度 。 仿 真实 验 显示 ， 参 数 自 适 应 的 网 格 密度 
个 密度 较 小 的 类 艇 ， 致 使 肾 类 结果 严重 失真 ， 其 次 ， 由 于 原 算 。 聚 类 算法 能 取得 更 好 的 聚 类 效果 。 但 是 ，SA-BGD 算法 需要 
法 没有 对 类 簇 边 缘 的 稀 疏 网 格 单元 进行 处 理 ， 导 致 类 艇 边缘 失 ” 工 的 从 品 声 曲线 中 识别 最 佳 的 密度 闵 值 ， 这 就 使 得 算法 需要 人 
去 原 有 的 平滑 ， 聚 类 的 精度 不 高 。 工 干 预 。 如 何 从 噪声 曲线 中 自动 的 获取 最 佳 密度 闵 值 ， 这 是 下 
3.2.2 高 维 数据 集 的 实验 一 步 将 要 重点 解决 的 问题 之 一 。 


为 了 验证 SA-BGD 算法 的 鲁 棒 性 , 本 小 节 采 用 SA-BGD 算 


法 对 表 1 中 的 UCI 真实 的 高 维 数 : 


集 进行 聚 类 操作 ， 并且 将 


聚 类 结果 与 BGD 算法 、K-means 算法 、BIRCH 算法 、OPTICS 


算法 的 聚 类 结果 进行 比较 。 


高 维 数据 的 聚 类 结果 无 法 采用 直观 的 图 片 来 
文采 月 
间 数 ) 、F-measure 及 E(c) (误差 平方 和 ) 来 衡量 
在 上 述 3 中 数据 集 上 
表 2 所 示 。 


下 的 聚 类 结果 的 优 劣 。 其 聚 类 结果 对 比如 


展示 ， 为 此 本 


聚 类 结果 常用 的 评价 指标 ARI(adjusted Rand index 兰 德 


四 中 聚 类 算法 


三 个 指标 中 ，E(c) 越 小 ， 表 示 聚 类 质量 越 高 ， 反 之 较 差 ; 


ARI 和 F-measure 的 值 越 小 ， 代 表 聚 类 质量 越 高 ， 反 之 越 差 。 


从 表 2 可 以 看 出 , 除去 数据 集 Wine, SA-BGD 算 


于 K-means、BIRCH、OPTICS 及 BGD 算法 的 结果 。 
上 面 ， 虽 然 SA-BGD 算法 的 聚 类 质量 并 没有 提升 , 但 也 
基本 和 其 它 算法 类 似 。SA-BGD 算法 的 聚 类 结果 较 好 的 原 


数据 集 


因为 根据 数据 集 的 本 身分 布 进 行 了 统计 ， 从 而 计 


法 均 可 取得 优 
在 Wine 


加 
六 


起 


度 ， 然 后 有 根据 噪声 曲线 选择 除了 较 合 适 的 密度 
加 了 边缘 提取 技术 ， 从 而 提 改 了 聚 类 的 精度 。 


疹 值 ， 而 且 增 


表 2 在 三 种 数据 集 上 五 种 算法 的 聚 类 结 
算法 数据 E(c) ARI F-measure 
Glass 225.10 0.343 0.749 
K-means Iris 102.78 0.456 0.652 
Wine 16913.26 0.715 0.776 
BIRCH Glass 228.10 0.331 0.645 
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